农业目前正在进行一个机器人革命,但使用轮式或胎面的机器人患有已知的缺点:它们无法通过瓦砾和陡峭或松散的地面,他们践踏连续的土地条,从而减少可行的作物区域。腿机器人提供替代方案,但现有的商业腿机器人是复杂,昂贵的,难以维护的。我们建议使用低自由度(低DOF)腿使用多级机器人,并用草坪害虫控制任务展示我们的方法:采摘蒲公英使用我们廉价且易于制造的重要机器人。对于此任务,我们将RGB-D相机添加到机器人。我们还严格连接了机器人底盘的花拣选附件。由于腿的多功能性,机器人可以被编程为执行“俯冲”的运动,允许该0-DOF附属物来拔出花。我们的研究结果表明,具有六个或更多低DOF腿的机器人可以通过提供足够的移动性,稳定性和低复杂性为农业应用设计的腿机器人甜点。
translated by 谷歌翻译
如果机器人曾经实现与动物所展示的机器人相当的自动运动,则它们必须获得在损害,故障或环境条件下快速恢复运动行为的能力,从而损害了其有效移动的能力。我们提出了一种方法,该方法使我们的机器人和模拟机器人能够在几十次尝试中恢复自由运动行为的高度。我们的方法采用行为规范,以等级的差异约束来表达所需的行为。我们展示了如何通过编码模板来考虑这些约束,从而产生了将先前优化的行为推广到新情况下以快速学习的形式概括的秘诀。我们进一步说明,在数据驱动的上下文中,足够的限制通常很容易确定。作为例证,我们证明了我们在物理7 DOF六型六杆元机器人上的恢复方法,以及对6 DOF 2D运动机制的模拟。在这两种情况下,我们恢复了与先前优化的运动在功能上无法区分的行为。
translated by 谷歌翻译
Text-guided image editing can have a transformative impact in supporting creative applications. A key challenge is to generate edits that are faithful to input text prompts, while consistent with input images. We present Imagen Editor, a cascaded diffusion model built, by fine-tuning Imagen on text-guided image inpainting. Imagen Editor's edits are faithful to the text prompts, which is accomplished by using object detectors to propose inpainting masks during training. In addition, Imagen Editor captures fine details in the input image by conditioning the cascaded pipeline on the original high resolution image. To improve qualitative and quantitative evaluation, we introduce EditBench, a systematic benchmark for text-guided image inpainting. EditBench evaluates inpainting edits on natural and generated images exploring objects, attributes, and scenes. Through extensive human evaluation on EditBench, we find that object-masking during training leads to across-the-board improvements in text-image alignment -- such that Imagen Editor is preferred over DALL-E 2 and Stable Diffusion -- and, as a cohort, these models are better at object-rendering than text-rendering, and handle material/color/size attributes better than count/shape attributes.
translated by 谷歌翻译
Image segmentation is a fundamental task in computer vision. Data annotation for training supervised methods can be labor-intensive, motivating unsupervised methods. Some existing approaches extract deep features from pre-trained networks and build a graph to apply classical clustering methods (e.g., $k$-means and normalized-cuts) as a post-processing stage. These techniques reduce the high-dimensional information encoded in the features to pair-wise scalar affinities. In this work, we replace classical clustering algorithms with a lightweight Graph Neural Network (GNN) trained to achieve the same clustering objective function. However, in contrast to existing approaches, we feed the GNN not only the pair-wise affinities between local image features but also the raw features themselves. Maintaining this connection between the raw feature and the clustering goal allows to perform part semantic segmentation implicitly, without requiring additional post-processing steps. We demonstrate how classical clustering objectives can be formulated as self-supervised loss functions for training our image segmentation GNN. Additionally, we use the Correlation-Clustering (CC) objective to perform clustering without defining the number of clusters ($k$-less clustering). We apply the proposed method for object localization, segmentation, and semantic part segmentation tasks, surpassing state-of-the-art performance on multiple benchmarks.
translated by 谷歌翻译
Generative models are becoming ever more powerful, being able to synthesize highly realistic images. We propose an algorithm for taming these models - changing the probability that the model will produce a specific image or image category. We consider generative models that are powered by normalizing flows, which allows us to reason about the exact generation probability likelihood for a given image. Our method is general purpose, and we exemplify it using models that generate human faces, a subdomain with many interesting privacy and bias considerations. Our method can be used in the context of privacy, e.g., removing a specific person from the output of a model, and also in the context of de-biasing by forcing a model to output specific image categories according to a given target distribution. Our method uses a fast fine-tuning process without retraining the model from scratch, achieving the goal in less than 1% of the time taken to initially train the generative model. We evaluate qualitatively and quantitatively, to examine the success of the taming process and output quality.
translated by 谷歌翻译
本文提出了2022年访问量的挑战的最终结果。 OOV竞赛介绍了一个重要方面,而光学角色识别(OCR)模型通常不会研究,即,在培训时对看不见的场景文本实例的识别。竞赛编制了包含326,385张图像的公共场景文本数据集的集合,其中包含4,864,405个场景文本实例,从而涵盖了广泛的数据分布。形成了一个新的独立验证和测试集,其中包括在训练时出词汇量不超出词汇的场景文本实例。竞争是在两项任务中进行的,分别是端到端和裁剪的文本识别。介绍了基线和不同参与者的结果的详尽分析。有趣的是,在新研究的设置下,当前的最新模型显示出显着的性能差距。我们得出的结论是,在此挑战中提出的OOV数据集将是要探索的重要领域,以开发场景文本模型,以实现更健壮和广义的预测。
translated by 谷歌翻译
网络分类旨在根据其结构将网络(或图形)分为不同的类别。我们研究网络及其组成节点的分类之间的联系,以及不同组网络的节点是否基于结构性节点特征,例如中心性和聚类系数。我们使用各种网络数据集和随机网络模型证明,可以训练分类器以准确预测给定节点的网络类别(不看到整个网络),这意味着复杂的网络即使在节点级别也显示出不同的结构模式。最后,我们讨论节点级网络分类的两个应用程序:(i)节点小样本和(ii)网络引导程序的全网络分类。
translated by 谷歌翻译
通过滚动式摄像机获得的视频导致空间延伸的帧。在快速相机/场景动作下,这些扭曲变得很重要。 RS的撤消效果有时被称为空间问题,需要对象进行整流/流离失所,以生成其正确的全局快门(GS)帧。但是,RS效应的原因是固有的,而不是空间。在本文中,我们为RS问题提出了一个时空解决方案。我们观察到,尽管它们的XY帧,RS视频及其相应的GS视频之间存在严重差异,但往往共享完全相同的XT片 - 直到已知的子帧时间变化。此外,尽管每个视频中都有强烈的时间别名,但它们共享相同的小型2D XT-Patches的分布。这允许使用RS输入视频施加的视频特定约束来限制GS输出视频。我们的算法由3个主要组成部分组成:(i)使用现成方法(通过常规视频序列训练)在连续的RS帧之间进行密集的时间上采样,从中我们提取GS“建议”。 (ii)学习使用专用Mergenet正确合并此类GS的“建议”。 (iii)特定于视频的零拍优化,该优化构成了GS输出视频和RS输入视频之间XT-Patches的相似性。我们的方法在基准数据集上获得了最新的结果,尽管在小型合成RS/GS数据集上进行了培训,但在数值和视觉上都获得了最新结果。此外,它可以很好地概括到具有运动类型的新的复杂RS视频(例如,复杂的非刚性动作)之外的运动类型 - 竞争对更多数据训练的竞争方法的视频无法很好地处理。我们将这些概括功能归因于外部和内部约束的组合。
translated by 谷歌翻译
我们介绍了一种新颖的可调图像恢复方法,该方法可实现多种模型的准确性,每个模型都针对不同级别的降解进行了优化,其参数数与单个模型的数量完全相同。可以优化我们的模型,以根据需要恒定数量的参数和各种图像恢复任务来恢复尽可能多的退化水平。现实世界数据集的实验表明,我们的方法实现了最先进的结果,从而在现有可调模型方面取得了denoising,dejpeg和超分辨率,从而使更平稳,更精确地拟合在更广泛的降级水平上。
translated by 谷歌翻译
我们开发了一个框架,用于在线环境中使用有效的覆盖范围保证构建不确定性集,其中基础数据分布可以急剧(甚至对手)随着时间的推移而发生巨大变化。我们提出的技术非常灵活,因为它可以与任何在线学习算法集成,需要最低限度的实施工作和计算成本。我们方法比现有替代方案的关键优势(也基于共形推断)是我们不需要将数据分为培训和保持校准集。这使我们能够以完全在线的方式拟合预测模型,并利用最新的观察结果来构建校准的不确定性集。因此,与现有技术相反,(i)我们构建的集合可以迅速适应分布的新变化; (ii)我们的过程不需要在每个时间步骤进行改装。使用合成和现实世界的基准数据集,我们证明了理论的有效性以及提案对现有技术的提高绩效。为了证明所提出的方法的更大灵活性,我们展示了如何为多出输出回归问题构造有效的间隔,而以前的顺序校准方法由于不切实际的计算和内存需求而无法处理。
translated by 谷歌翻译